测序进入大样本时代,长读长测序如何成为主导?
长读长测序技术由于在读长上所具备的优势,可以检测到结构变异、短串联重复,也可以检测到单体型,区分真假信息,同时还可以捕捉到其他复杂序列结构信息。随着准确性的提升,长读长测序的应用变得越来越广泛。那么当前使用者对长读长测序技术有哪些期望呢?长读长测序技术想要成为主导需要解决哪些问题呢?
今天,我们共同关注长读长测序技术。希望本文能够为相关的产业人士和诸位读者带来一些启发和帮助。
长读长的过去和未来
牛津纳米孔(ONT)公司是全球最著名的长读长测序公司之一。该公司的技术源于三位研究者的想法:当时在加州大学戴维斯分校的David Deamer、牛津大学的Hagan Bayley以及哈佛大学的Dan Branton。
具体地,该技术让一串核酸穿过蛋白质纳米孔,并让离子电流流过纳米孔。当碱基通过蛋白纳米孔时会对离子电流造成阻碍,导致电流变化,从而可以判断出具体的碱基。
该技术一次读取一组碱基,大约6个碱基发出的信号最强。因此,美国约翰霍普金斯大学的研究员Steven Salzberg表示,大概有4096(46)种碱基的可能性。这看起来会使这项技术的应用变得困难,但事实上,举个例子,当纳米孔遇到AGCTGA序列时,后面的序列只需要在最后五个字母的基础上再添加四个字母中的一个。因此,下一个序列应该是GCTGAA、GCTGAC、GCTGAG和GCTGAT中的一个。
这一长读长测序技术的潜在应用包括传染病、植物研究和环境测试。Sanghera说,对即将到来的“基因组时代”来说,拥有一种唾手可得的生成数据的方法是具有革命性的,在这个时代,测序技术可以应用于许多方面,并且其应用范围将变得越来越广泛。
Sanghera说,一种可以畅想的技术是内置ONT装置的牙刷。它可以用来检查人们刷牙时释放的微量血液中的信号“特征”。这些特征或将反映使用者的癌症情况,或者提示其需要去就医。其他应用可能涉及检测食物或环境中的病原体。Sanghera说,牙刷体现了“我们认为会发生什么”的设想。
另一家长读长公司名为太平洋生物科学公司(PacBio)。PacBio公司采用高保真(HiFi)测序,在该技术中,酶会绕着模板进行滚环测序,片段会被多次测序。HiFi测序是从该公司的核心长读长技术——单分子实时测序(或称为SMRT测序)发展而来的,这项技术是由该公司的首席科学官Jonas Korlach参与开发。
在Korlach于康奈尔大学Watt Webb实验室读研究生时期,其就对大分子“机器”非常着迷,其中之一就是DNA聚合酶(DNAP)。DNAP以每秒100个碱基的速度快速复制基因组。他说,这是经过数百万年进化而来的“最强大的测序机器”。
Korlach一方面尝试探索DNAP的作用机制,另一方面积极研究如何使用标记的核苷酸来区分四种DNA碱基。例如,他探索了当每种碱基被添加到互补链上时,该酶是如何保持在正在形成的DNA链上的。然而,如果没有对单个聚合酶分子进行成像的方法,那么就无法准确鉴别被标记的核苷酸。因此,他的导师Webb建议他联系Harold Craigshead实验室寻求合作。
Stephen Turner是Harold Craigshead实验室的一名博士生,因此机缘,其与Korlach成为了合作伙伴,并保持友谊至今。Turner创立了PacBio公司,而Korlach是PacBio公司的第8号员工。他们开发出了使SMRT测序更可靠的方法,例如,通过将标签附着到核苷酸上,使DNAP不会从正在形成的DNA链中脱离。
随着PacBio公司和ONT公司不断优化改进他们的测序仪器,人们对长读长测序也有了更多的期待。
大多数基因组学项目应用多种技术来解决诸如序列重复、结构变异和缺乏多样化的参考基因组等问题。为了更充分地反映人类全球基因组多样性,人类泛基因组参考联盟(HPRC)使用HG002受试者的样本进行了方法学测试。HG002是一位参与了人类基因组计划的德系犹太人,他同意使用他的样本。HPRC采取的测序技术包括:PacBio HiFi 长读长测序、ONT 长读长测序、10×Genomics linked reads测序、HiC linked reads测序、光学图谱和Strand-seq。
浙江大学的张国捷表示,准确性是同时采取多种技术的主要原因之一。他说,如果长读长测序更准确,实验室将不再采取多种技术来互相辅助和相互验证。
Rehm说,长读长测序对于解决人类基因组中一些更复杂的结构变异是有用的,它为研究人员提供了一种方法来研究高同源性区域,这些区域有时包含了在临床上很重要的基因。利用长读长,科学家可以比短读长更好地解析短串联重复,以进一步进行基因分型,确定它们属于哪些等位基因。
她与ONT、PacBio和Illumina公司合作研究罕见病。在她看来,长读长测序需要变得“绝对便宜”。她说:“理想情况下,我们应该在一个平台上完成所有的事情,而不是通过多个平台完成不同的事情。”
一体化读长测序的世界尚未到来,但已经有一些组合技术开始出现。ONT和10×Genomics公司已经建立了一项协议,通过使用ONT PromethION设备并按照10×Genomics平台的要求进行相应的样品制备,从而连接纳米孔测序和10×Genomics的单细胞分析和空间分析技术。用户可以捕获序列,并同时获取多种信息,如同源异构体的转录丰度和空间转录组数据。
Ultima Genomics公司的首席科学官Doron Lipson表示,如果实验室能够拥有一台可以解决所有问题的机器,这将是最理想的情况,但为了获得“全面的、完整的图谱,端到端(end-to-end)的一切”,研究人员可能总是要结合各种方法。
Lipson认为Illumina公司最近推出的长读长技术与“已经存在一段时间”的方法类似,DNA被标记并片段化,随后进行测序,通过标记可以跟踪每个片段的来源,然后进行组装。他表示,Ultima也在探索这一领域。
Lipson说,也许有一天实验室会有一体化的机器,可以为科学家们提供所需的所有数据,“但这还需要一段时间。”最终,测序仪将成为“测量未知的设备”,科学家可以通过将感兴趣的信号转换成DNA序列信号来获得读长。
目前,测序正在进入一个新时代——越来越多的实验室正在扩大其项目的测序规模。即使较小的实验室也可以成为“大规模”测序工厂,因为准备和分析都变得比以前更容易。Lipson说,生物学的难题仍将存在。这是“生物学的魅力和魔咒”,当测量结果提供了对人们知之甚少的东西的见解时,它就会引发新的问题。
期待2:更低的成本
EMBl-EBI的Martin表示,如果长读长测序也能从少量样本中捕获全长序列的基因或者是捕获低表达的基因,那么它的应用范围将大大拓展。他说:“这对生物多样性非常重要,因为某些物种的样本可能非常有限。”他还想知道PacBio和ONT如何支持这些“本质上是非营利性的活动”,这些努力将深刻地影响地球的健康。
ONT公司的Sanghera表示,ONT重视以低成本的方式获取DNA和RNA测序数据。在大流行期间,该公司的仪器被广泛地提供给了世界各地缺乏测序基础设施的公共卫生实验室。他说,ONT基本上是免费提供了设备,而且不仅仅只用于新冠肺炎(COVID-19)的研究。“你只需买耗材,”他说,“即流通池和试剂。”
Korlach参与了脊椎动物基因组项目(VGP)和HPRC等研究项目,他表示,随着时间的推移,长读长测序已经变得更高通量和更易使用,成本也下降了。在计算方面,Korlach表示:“我们正在借助电信行业。”由于处理器和GPU等组件的进步,计算速度变得更快了。“因此,我认为长读长测序将会变得更快、更便宜、更容易使用。”
“欢迎科学家与PacBio公司沟通潜在的合作,如果他们想进行大量测序,那么我们会鼓励他们,”Korlach说,“如果有人想要做一些以前从未有人做过的事情,我们对此感到兴奋,并且很乐意支持。”例如,这可以转化为折扣或其他类型的支持,以便PacBio公司能够帮助科学家实现这个项目。
Patel说,对于实验室来说,成本和准确性都是重要的考虑因素。他说,PacBio的HiFi平台可以提供高精确度的长读长,但它比ONT的平台更贵。
Salzberg说:“对于长读长测序,大多数情况你都可以选择牛津纳米孔。”该公司的小型设备可以轻松地跟随科学家进入现场。
“HiFi技术是伟大的,”他说,“我们拥有它很好”,可以帮助我们精准地组装基因组,但大多数实验室都缺乏资金使用它。例如,虽然在大规模的研究工作中(例如NHGRI资助的HPRC),HiFi测序得到了应用,但是,他说,包括他的实验室在内的许多实验室通常没有足够的资金来支持这项技术。
根据Patel的经验,ONT测序仪的准确率在不断提高。当他和他的同事们去年开始为一个现在正在扩大规模的项目收集数据时,ONT平台的准确性达到了92%。他说:“现在这一比例接近99%。”
Jarvis说:“我们需要更长、更准确的读长。”此外,还需要扩大规模,每周为数千个物种大规模生产完整、无错误的基因组,以达成VGP和地球生物基因组计划的目标。
他说,目前“我相信全球参与的实验室平均每周生产大约6个高质量的基因组。”这一过程从DNA分离开始,以提交到公共数据库为结点。“所以在扩大长读长规模方面,我们还有很长的路要走。”
Phillippy表示,大约在2010年,早期PacBio仪器的错误率在15-20%左右,但这一情况如今已经发生了巨大变化。用于大规模研究工作(如HPRC)的HiFi读长涉及环形一致性序列(CCS)。Salzberg表示,HiFi测序本质上是进行了错误校正,现在的准确度可以达到99%以上。
该仪器还使用隐马尔可夫模型构建了一个共识序列。PacBio与谷歌合作,共同开发了一种基于深度学习的方法——Deep Consensus,这一方法利用了Transformer结构。Transformer结构在DeepMind开发的AlphaFold 2平台上发挥了作用。Deep Consensus有助于纠正测序错误,尤其是在更难测序和组装的基因组部分,现在它已内置于PacBio平台中。
在过去的十年中,Salzberg和他的团队一直在组装树的基因组,为此他们结合了Illumina短读长测序和ONT纳米孔测序。“这是我们目前的做法,”Phillippy表示,“ONT曾经是一种容易出错的技术,但现在已经得到了极大的改进。”
在他看来,ONT已经开始被重视,并被用于结构变异检测、单核苷酸变异检测和疾病诊断。Salzberg认可准确性水平的提高。这项技术非常适用于他所研究的树基因组,这些树基因组的大小可能是人类基因组的十倍,其中可能包含30千兆碱基以及不同长度的重复序列。
不久之前,人类基因组是由55-75个碱基对组成的。“它们是可怕的集合。”Salzberg说。
据他回忆,Illumina公司收购的Solexa公司的机器产生的读长为25个碱基对。而Illumina公司组装的第一个人类基因组是碎片化的,基于54个碱基对的读长。为了实现目前的人类基因组组装,实验室一直在与长重复区域进行斗争,破解端粒和着丝粒周围的间隙,这些区域有数百万次重复和复杂的结构。“这就是为什么HiFi读长是必要的”,以及为什么它会被T2T联盟使用。
期待4:节省时间
一些ONT用户希望该公司降低产品的更换频率,尤其是降低更换软件的频率。Sanghera说,颠覆者的规则是“定期发布软件和硬件”。但是,随着ONT平台的成熟,除了渴望新工具和变革的 “创新者”和早期使用者之外,更多以应用为重点的客户出现了。他表示,为了解决这一群体的问题,该公司正在着手设立Q-Line,这一系列的产品情况不会经常发生变化。这种双管齐下的产品开发方法仍然是“一项正在进行的工作”。
张国捷说,对许多生物学家来说,轻而易举地制造出“端粒到端粒”的无错误组装基因组是一个“伟大的梦想”。长读长使基因组组装变得容易。他说,长读长测序“还允许我们用所有可选的剪接形式捕获全套转录本。”
然而,组装“T2T”基因组仍然耗时。例如,它意味着需要手动纠正可能已经产生的人工结构变异。它的计算成本也很高。Zhang表示,对于长读长测序而言,更快、更长和更便宜是他的愿望。
Korlach说,新方法,不仅仅是测序领域的新方法,通常在它们变得更加广泛和商品化之前显得较为昂贵。他很高兴看到有许多生物学新知识被揭示出来,因为实验室现在可以使用长读长来解析以前无法解析的基因组区域。他说,在众多进步中非常重要的一步是成功解析了人类基因组所包含的6千兆碱基,从而让人们可以分离单倍型并研究母系和父系等位基因。
原文链接:
https://www.nature.com/articles/s41592-022-01730-w
作者|Vivien Marx
编译|ZQ
审校|617
编辑|豫小鱼